本文將要介紹由Andrew Y. Cui撰寫的《Forecasting Outcomes of Major League Baseball Games Using Machine Learning》,其主要是利用機器學習對MLB(美國職棒)進行賽事勝負預測,在最終結果上獲得了61.77%的勝率,但究竟能不能實際運用在運彩當中呢?我們將在介紹完該篇期刊後,為各位實測看看結果!!
以預防讀者一次受到太多資訊的衝擊,而無法有效吸收,本介紹將分為上、中、下三篇,分別為:
資料的前處理與特徵值的篩選
模型的建構與選擇
實測結果
資料的前處理與特徵值的篩選
1.模型預測基準
我們進行模型的預測通常需要一個基準機率,大多在做球類運動的研究者都會先以人們常說的「主隊優勢」做為參考,也就是球隊在主場獲勝的機率作為一個基準,本篇作者也做了一樣的方式,作者利用2000年到2019年的數據計算每年的「主隊獲勝機率」究竟為多少,可以發現這19年來主隊的勝率最高曾來到56%之多,但近幾年的數據可以看到,「主隊優勢」的機率逐漸下降,約來到只剩下53%左右,但不論56%或是53%,這都將成為模型預測的基準,也就是至少要做出能夠高於該勝率的模型,我們才能算是成功。
2.MLB隊伍強弱會分明嗎?
球隊的強弱分明容易影響模型的預測,我們從下方作者做出從2000年到2019年各球隊勝場數(每一個藍點代表一個球隊該年的勝場數)來看,球隊的強弱分明在近幾年有相對明顯一點,這很可能跟整個MLB的生態有關,強者都容易聚集在強隊上,這也表示我們在預測上或許能夠容易一些,但如果運用在運彩上或許就不是那麼的樂觀,這部份我們之後的篇章再作解釋。
想看更詳細的請到下面連結
原文出處:Guess365